home *** CD-ROM | disk | FTP | other *** search
/ Power Programmierung / Power-Programmierung CD 2 (Tewi)(1994).iso / doc / mir / 01what < prev    next >
Text File  |  1992-06-29  |  20KB  |  417 lines

  1.             This is your introduction to the MIR Tutorial series. 
  2. It attempts to answer the questions:  What?  For whom?  Why?  How? 
  3. The "How" takes the form of interactive publishing in which you are
  4. invited to contribute.  Part of our aim is to make the MIR computer
  5. indexing and retrieval techniques widely available, so we include
  6. in full the Free Software Foundation's GNU General Public License. 
  7. This license provides the legal means to ensure there is the
  8. maximum freedom (and minimum restriction) for all who wish to
  9. understand, use, and further develop techniques of computerized
  10. indexing.
  11.  
  12.           ════════════════════════════════════
  13.  
  14.                 1.  COMPUTER INDEXING
  15.                 AND RETRIEVAL TECHNIQUES
  16.  
  17.           ════════════════════════════════════
  18.  
  19.  
  20.             These tutorials are about people and information. 
  21. People need information.  The MIR (Mass Indexing and Retrieval)
  22. project has one objective: to make available leading edge
  23. technology which may be used to enable people to find information
  24. quickly and easily within large quantities of computerized data. 
  25. The technology is being shared through this introduction plus five
  26. sets of tutorials, each accompanied by software with source code.
  27.  
  28.             The tutorial series subtitle is "Finding Information in
  29. a Gigabyte World".  A gigabyte is 1,073,741,824 characters of data. 
  30. Visualize a stack of computer paper 140 feet high, or a library of
  31. 500 books, or 10,000 hours of reading.  More and more, it is
  32. becoming commonplace for people to search through quantities of
  33. data of that magnitude. The one certainty is that no-one ever wants
  34. to read through a pile like that, even at computer speeds, in order
  35. to find an item of information.  So our focus in this project is on
  36. computerized indexing and retrieval techniques.  Well designed
  37. index structures and logic can reduce time for a complex search
  38. down to seconds or a fraction of a second.
  39.  
  40.             The Mass Indexing and Retrieval project got under way
  41. in March, 1991.  A freeware introduction was published late in May
  42. 1992.  The first of five sets of "tutorials" based on the research
  43. was released as shareware in July 1992.  25 software tools for data
  44. analysis, complete with source code, were placed on CompuServe and
  45. Canada Remote Systems BBS.  We plan to release each of the
  46. remaining four tutorials with related programs according to demand. 
  47. That is, Tutorial TWO will be released when there have been 1,000
  48. shareware registration fees paid for Tutorial ONE, Tutorial THREE
  49. will be released when there have been 1,000 registrations for
  50. Tutorial TWO, etc.  When all five tutorials have been released, we
  51. hope to publish a reference text based on the series.  Each
  52. tutorial has eight or more sections, and invites inputs from
  53. readers.
  54.  
  55.             All materials are copyright, but permission is given to
  56. copy and further distribute any of them.  The freeware introduction
  57. and the shareware tutorial text may not be changed in any way.  The
  58. software may be freely used, revised, and further distributed
  59. within the terms of Free Software Foundation's GNU General Public
  60. License.
  61.  
  62.             What is meant by "interactive" tutorials?  I believe
  63. that many minds are better than one, and that everybody gains
  64. through "open architecture" sharing.  The quality of the final
  65. software and the final published version of the tutorials will be
  66. improved by your questions and suggestions.  I encourage you to
  67. share technical insights, ideas, clearer wording, source code
  68. amendments and even whole new programs.  I look to you in
  69. particular to expand the range of worked examples; send in real
  70. world data that may be included.  (While we have worked on hundreds
  71. of different databases, you may be able to come up with other
  72. interesting challenges.)  Tutorials are meant to be a dialogue. 
  73. This to me is the exciting part of a learning situation... the more
  74. people pitch in with their ideas, and the more enthusiasm they
  75. show, the more everybody learns (including the teacher!)
  76.  
  77.             Watch for sections like this in the interactive
  78. tutorials:
  79.  
  80. ═════>> QUESTION:
  81.             Are you with me so far?  I may be too close to this
  82.             stuff, and assume that you should know what is in my
  83.             mind.  What parts need clarification?  Send in your
  84.             comments.  Make a copy of the RESPONSE file which comes
  85.             with the software.  Fill in the relevant sections, and
  86.             identify any other files that you are sending.  The
  87.             RESPONSE file contains the FAX and e-mail numbers and
  88.             the mail address.  If sending anything lengthy by
  89.             normal post, please put it on a PC-compatible diskette.
  90.                                                             <<═════
  91.  
  92.             We continue with an overview of each of the five
  93. tutorials and of the final cumulative publication.
  94.  
  95.  
  96.  
  97.         ═════════════════════════════
  98. 1.1           Tutorial ONE...
  99.               Database Analysis
  100.         ═════════════════════════════
  101.  
  102. ═════>> QUESTION:
  103.             Contest!!  "Database Analysis" is a humdrum title.  We
  104.             could use snappy headings for everything... for the
  105.             tutorials, the topics within each, and even individual
  106.             sections.  Maybe our Table of Contents could be as neat
  107.             as Jerry Weinberg's The Secrets of Consulting... "The
  108.             Law of the Jiggle", "The Edsel Edict", "The Bigness is
  109.             Not the Horse", and so on like that.  Make notes as you
  110.             read, and send in a batch of headings.
  111.                                                             <<═════
  112.  
  113.  
  114.             [ This section is copied from topic 1.2 in the first
  115. tutorial.]
  116.  
  117.             The purpose of MIR Tutorial ONE is to enable you to
  118. analyze computerized data from an indexing perspective.
  119.  
  120.             The first topic, source code guidelines, explains the
  121. perspectives that have been built into the software that is
  122. provided with the tutorials.  People who wish to improve on the
  123. technology are shown how to share their insights and C language
  124. source code.
  125.  
  126.             Methods of data gathering affect the cost, the quality
  127. and the complexity of the task of indexing.  An index adds value to
  128. data, so we pay attention to some marketing considerations.
  129.  
  130.             Data analysis has to do with recognizing various forms
  131. in which data is accumulated, and detecting the inconsistencies
  132. (common in large sets of data) that make indexing more challenging. 
  133. Data format offers possibilities and imposes limitations that will
  134. face searchers who wish to extract information.  How might the data
  135. be structured in a way that better suits the needs of searchers? 
  136. The reader is provided with a variety of software tools for this
  137. critical data analysis function.
  138.  
  139.             The ability to identify patterns in byte sequences
  140. quickly is critical to keeping indexing costs low.  We examine a
  141. series of software tools for this purpose.
  142.  
  143.             Worked examples are provided of the analysis stage. 
  144. These topics are at a "nuts and bolts" level... use such and such
  145. a program, here is the input, here is the output, and here is what
  146. the results mean.  The sequence is from simplest to most complex...
  147. simple ASCII text, ASCII with markup, fielded text, fixed length
  148. records, the addition of packed numbers, then various forms of
  149. binary data
  150.  
  151.             Data deblocking is explained at this stage since it may
  152. be required in order to finish analysis of the data.
  153.  
  154.             At the end of TUTORIAL ONE, the participant has
  155. detailed exposure to the techniques of data analysis, and is able
  156. to use a selection of analysis tools (source code provided) to
  157. recognize and interpret a wide range of data types.
  158.  
  159.  
  160.         ═══════════════════════════════════════
  161. 1.2           Tutorial TWO...
  162.               Secrets of Data Preparation
  163.         ═══════════════════════════════════════
  164.  
  165.             The first topic sets out a simple ASCII text format
  166. which makes data suitable for automated indexing.  Careful planning
  167. of data sequence and layout can speed up response to search
  168. requests.  What the searcher sees later depends on a series of
  169. decisions made during data preparation.
  170.  
  171.             Example: What is to be the unit of search (article,
  172. paragraph, computer record, a fixed length record, etc.)?  A second
  173. topic delves into other issues in data organization:  the use of
  174. invisible fields, pointers, parameter controls, data that must
  175. remain accessible to other software and the handling of multimedia
  176. data.  
  177.  
  178.             Standard Generalized Markup Language enhances the end
  179. user's ability to control layouts of records found during search. 
  180. It may be embedded in data without hindering automated indexing. 
  181. We look at how to distinguish flexible versus fixed display, how to
  182. handle oversize tables, etc.
  183.  
  184.             Data preprocessing describes the task of converting
  185. data to a standardized production format.  In some cases, it's
  186. easy.  If the analysis has been thorough, there should be few
  187. surprises.  Yet experience shows that setting up the preprocessing
  188. sequence can still be the most expensive aspect of all.  We look at
  189. a series of standardized tools to make the job easier and more
  190. efficient.
  191.  
  192.             Worked examples show how to use combinations of
  193. standardized tools and custom software.  We look at how to extract
  194. data from several kinds of typesetting codes.  This section is
  195. intended to be as practical as possible, so readers are invited to
  196. submit sample real world data.
  197.  
  198.             One of the surprises for you in this tutorial is a
  199. detailed analysis of why compression before indexing makes more
  200. sense than would at first appear.  The standardized ASCII layout
  201. can be used as an intermediate step toward a compressed version
  202. which greatly increases the indexing capacity of a personal
  203. computer.  We examine some integerizing techniques and software.
  204.  
  205.             At the end of TUTORIAL TWO, the user can make decisions
  206. about the layout of data, and implement those decisions using a
  207. variety of data conversion tools.  Source code for these tools is
  208. provided with TUTORIAL TWO.  You will have been exposed to issues
  209. in writing custom data conversion tools.  The user is able to
  210. compress large databases into integerized format, in order to make
  211. it practical to index them on a personal computer.
  212.  
  213.  
  214.         ══════════════════════════════════════
  215. 1.3           Tutorial THREE...
  216.               Keys to Automated Indexing
  217.         ══════════════════════════════════════
  218.  
  219.             Indexing basics start with an explanation of index
  220. formats, and how they may be combined through Boolean logic.  We
  221. look at grouping indexes within separate field lists, and also at
  222. how to tag index items within a global index list.
  223.  
  224.             The topics on search term selection show how to go
  225. beyond simple word indexing to enable search on word fragments,
  226. phrases, topics and numeric or date ranges.  Files are created for
  227. each "field" in a database.  We look at means to upgrade these
  228. field files and to ensure strict quality control over the indexes.
  229.  
  230.             Specialized index preparation leads us into "fuzzy
  231. search" of alternate verb forms (search on "is", calls up "were",
  232. "shall be", "was", "isn't", "to be", etc.) and nouns (possessives,
  233. plurals, etc.)  Search on synonyms and correlates is related; the
  234. power depends on how much context is taken into account to
  235. distinguish homonyms... words of one spelling with radically
  236. different meanings.  Pattern indexing provides extra speed where
  237. the searcher may specify extended word sequences.  The issue of
  238. "relevance" of found records carries the discussion further into
  239. automated subject recognition.
  240.  
  241.             Automated indexing is critical to limiting costs; one
  242. efficient set of software programs (called an "inversion engine")
  243. can be used to build the indexes for virtually any data originally
  244. expressed in alphabetic letters, digits, and other keyboard
  245. characters.  The structure of the index is critical to how quickly
  246. the retrieval software can perform Boolean combinations... ((this-
  247. word OR that-phrase) AND something else AND NOT another term).  The
  248. automated indexing software creates indexes in a format geared to
  249. high speed Boolean operations when used for search.
  250.  
  251.             We look at software (source code provided) for two
  252. "inversion engines", one using strings, the other working from
  253. integerized data.
  254.  
  255.             At the end of TUTORIAL THREE, the user is familiar with
  256. the tools necessary to set up and create computer indexes,
  257. tailoring the index types according to the needs of searchers in
  258. the target database.
  259.  
  260.  
  261.         ═════════════════════════════════
  262. 1.4             Tutorial FOUR...
  263.                Search Engines and
  264.               Information Retrieval
  265.         ═════════════════════════════════
  266.  
  267.              This is the most technical of the five tutorials.
  268. Everything up to this point has been the concern of the indexer. 
  269. Now we turn to the "run time" or retrieval software.  Retrieval
  270. describes the search process... specifying a search, performing
  271. Boolean logic on combinations of terms, identifying data that meets
  272. the search criteria, and making the selected data available to the
  273. searcher.
  274.  
  275.             Under the topic dealing with Search Engine Servers, we
  276. review an SFQL (Structured Full Text Query Language) server which
  277. is provided with TUTORIAL FOUR.  Alternate server options (CD-RDx
  278. et al) will be reviewed.
  279.  
  280.             Search Engine Client (interface) software is
  281. deliberately left outside the "copyleft" software set; no single
  282. interface can encompass the range of features desirable for all
  283. data types and search situations.  We comment on current issues in
  284. standardization.
  285.  
  286.             Search extensions include:
  287.  
  288.         »    optimization of index structures;
  289.  
  290.         »    search across multiple databases at a time; and
  291.  
  292.         »    dynamic definition of search objects.
  293.  
  294.             By the end of TUTORIAL FOUR, the user has available the
  295. know-how and software to analyze, prepare, index, and provide
  296. search capability for a diverse range of data types and search
  297. requirements.  Any engine-independent interface built to SFQL
  298. specifications may be used to implement search at high speed across
  299. large quantities of data.
  300.  
  301.  
  302.         ═══════════════════════════════════════════
  303. 1.5           Tutorial FIVE...
  304.               Related Topics and Applications
  305.         ═══════════════════════════════════════════
  306.  
  307.             The list of related topics and applications will
  308. continue to grow, based on reader comments on earlier tutorials. 
  309. Our experience in CD-ROM preparation has already led us to include
  310. the following areas of interest:
  311.  
  312.         »   Very often desired text or records are not found,
  313.             because the words and phrases used to describe the
  314.             target are not present.  Automated concept recognition
  315.             gets around the problem.  Automated key word selection
  316.             is a related method that reduces costs in preparing an
  317.             index, and increases the power of search.
  318.  
  319.         »   Encryption: We believe that encryption merely dissuades
  320.             the idle browser and raises costs to the determined
  321.             criminal.  We discuss straight-forward methods that
  322.             serve these purposes admirably.  Even where the
  323.             technique is known, it takes an inordinate amount of
  324.             computer time for the thief to identify the seed
  325.             values.
  326.  
  327.         »   Data cleaning combines the benefits of indexing with
  328.             spell checking to enable low cost cleanup of massive
  329.             databases.
  330.  
  331.         »   Records and Information Management (RIM) is a full
  332.             discipline in its own right.  The technology and
  333.             plummeting costs of full text archiving is bringing
  334.             about a revolution in RIM philosophy and methods of
  335.             records retention.  There are some simple tricks that
  336.             can be applied to archiving with spectacular results.
  337.  
  338.         »   Correlation studies using indexed retrieval and high
  339.             speed Booleans can change the nature of research.  A
  340.             cell in a correlation table turns out to be a search
  341.             count.  Mainframe, move aside.  The PC is here.
  342.  
  343.  
  344.         ═══════════════════════════════
  345. 1.6           The MIR Tutorials:
  346.               The Book and CD-ROM
  347.         ═══════════════════════════════
  348.  
  349.             As the five interactive tutorials are released there
  350. will be an ongoing revision and updating process.  This will
  351. reflect your responses and improvements on the content, and
  352. encompass many of the samples and suggestions that you have made.
  353. The first four reworked tutorials will be put together with
  354. Tutorial FIVE and be published as an ongoing reference work.  We
  355. will decide closer to the final publication date whether the final
  356. version will be
  357.  
  358.             »   loose-leaf, or
  359.  
  360.             »   bound as a reference or text book, and/or
  361.  
  362.             »   electronic (ASCII, WordPerfect, and PageMaker
  363.                 files) on a CD-ROM.
  364.  
  365. Whatever the form of the tutorial text, all programs, source code
  366. and worked examples will be supplied on a CD-ROM.
  367.  
  368.  
  369.         ═════════════════════════════════════════
  370. 1.7           Timing of successive releases
  371.         ═════════════════════════════════════════
  372.  
  373.             The major unknown in the Mass Indexing and Retrieval
  374. project is the readiness of the marketplace to deal with copyleft
  375. and the notion that, through sharing, the benefits of $800,000 in
  376. development can be picked up for less than $500.  This is the old
  377. marketing problem of perception of value.  We are taking the risk
  378. of volume shareware pricing; we are betting that there are enough
  379. people in the field who can recognize value based on the
  380. introduction and the first tutorial.  Marpex Inc. reserves the
  381. right to discontinue the project if there is insufficient demand.
  382.  
  383.             As mentioned earlier, we plan to release each tutorial
  384. according to demand for the previous tutorial.  Tutorial TWO will
  385. be released when there have been 1,000 shareware registrations of
  386. Tutorial ONE, Tutorial THREE will be released when there have been
  387. 1,000 registrations of Tutorial TWO, etc.  At the same time as a
  388. Tutorial is released, the related software will be placed on BBS
  389. (bulletin board systems) under "copyleft" redistribution rules.
  390.  
  391.             What about organizations with a burning need to proceed
  392. faster than the general market?  Software may be made available
  393. prior to the release dates for alpha site testing by registered
  394. users who get actively involved and contribute their improvements. 
  395. For others, we do offer consulting services.
  396.  
  397.  
  398.         ═══════════════════
  399. 1.8           Summary
  400.         ═══════════════════
  401.  
  402.             This completes our introduction to the series of five
  403. tutorials on how to enable people to retrieve information from
  404. large accumulations of data.  Related high speed indexing and
  405. retrieval software is being distributed under the "copyleft" rules
  406. of the Free Software Foundation.  Interactive publishing enables
  407. you to:
  408.  
  409.         »   study the techniques in the tutorials and examples;
  410.  
  411.         »   put the source code to use, personally or commercially,
  412.             without payment of license fees;
  413.  
  414.         »   further develop the computer source code; and
  415.  
  416.         »   contribute your insights.
  417.